Loading...
机构名称:
¥ 1.0

视觉变压器(VIT)在全球建模中脱颖而出,但由于其注意力机制的二次计算复杂性,在资源受限设备上面临部署挑战。为了解决这个问题,我们提出了语义意识的聚类视觉变压器(SAC-VIT),这是一种非著作范围,以提高VIT的计算效率。SAC-VIT分为两个阶段:早期出口(EE)和语义意识聚类(SAC)。在EE阶段,处理下采样的输入信息以提取全局语义信息并生成初始推理结果。如果这些结果不符合EE终止标准,则将这些信息聚集到目标和非目标令牌中。在SAC阶段,目标令牌被映射回原始图像,裁剪和嵌入。然后将这些目标令牌与从EE阶段重复使用的非目标令牌结合使用,并在每个集群中应用注意力机制。具有端到端优化的两阶段设计,可降低空间冗余,并实现计算效率,从而显着提高所有VIT性能。广泛的实验证明了SAC-VIT的功效,减少了DEIT的62%,并实现了1.98倍的吞吐量,而无需损害。

arxiv:2503.00060v1 [cs.cv] 2025年2月27日

arxiv:2503.00060v1 [cs.cv] 2025年2月27日PDF文件第1页

arxiv:2503.00060v1 [cs.cv] 2025年2月27日PDF文件第2页

arxiv:2503.00060v1 [cs.cv] 2025年2月27日PDF文件第3页

arxiv:2503.00060v1 [cs.cv] 2025年2月27日PDF文件第4页

arxiv:2503.00060v1 [cs.cv] 2025年2月27日PDF文件第5页

相关文件推荐

2025 年
¥3.0
2025 年
¥1.0
2025 年
¥3.0
2025 年
¥1.0
2025 年
¥1.0